搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI工程落地
DeepSeek V4模型原理
这个Attention有三块功能构成：1.KV Compressor负责把N个token的KV压缩成1个，在DeepSeek V4系列模型里，N=4。2.Lightning Indexer再从压缩后的KV里挑选top-k个KV参与注意力计算，DeepSeek V4 Flash模型的k=512，Pro模型的k=1024。3.因为KV Compressor会把多个token压缩，压缩后的KV Entriy内部的token之间是无法相互看到的，而且语言模型对最近的token是高度依赖的。所以需要维护滑动窗口（Sliding Window），保留一些最近的未压缩KV，弥补压缩带来的损失。一般，sliding window=128。
19610编辑于 2026-05-09
来自专栏机器学习与统计学
DeepSeek V4 Flash 量化版火了
最近 HuggingFace 上有个 DeepSeek V4 Flash 量化版突然火了——更狠的是，作者是 antirez（Redis 作者 Salvatore Sanfilippo）我查了一下简介事情其实是这样的：antirez 同步开源了两件配套的事： DeepSeek V4 Flash 的专用量化版 GGUF：托管在 huggingface.co/antirez/deepseek-v4 -gguf DwarfStar 4（简称 ds4）：一个专门为 DeepSeek V4 Flash 设计的推理引擎，托管在 github.com/antirez/ds4 注意定语：ds4 不是通用 GGUF V4 Flash，这套组合是当前能找到的"最爽配置"之一 4. 通用性差是事实不要指望它能跑 Qwen、Llama、其他 DeepSeek——它就只跑 V4 Flash，换模型就得换引擎总结 ds4 + DeepSeek V4 Flash GGUF 这套组合，是
69810编辑于 2026-05-19
来自专栏Java面试教程
DeepSeek V4 真要来了！
大家可能听说过很多次，DeepSeek V4就要爱了，这一次可能是最靠谱的时间点了。就在上周，多位知情人士透露，DeepSeek创始人梁文锋在内部已经明确了节奏：下一代旗舰大模型V4，计划于4月下旬正式与公众见面。但这一次，DeepSeek V4干了一件牛逼的事情：完全运行在华为昇腾950PR芯片之上，底层代码从CUDA全面转向华为自研的CANN框架。这意味着什么？但其实我觉得 DeepSeek V4 虽然会比 V3 更好，但一定没有大家像之前期待的那么炸裂。我们应该用正常的眼光来看待更多“平凡、也会犯错的 DeepSeek"，哪怕崩溃了，V4 不那么惊艳，也并不影响 DeepSeek 的历史地位，已经它仍然是一家巨牛逼的公司。
38020编辑于 2026-04-20
DeepSeek V4是什么？能做什么？
DeepSeek V4不只是聊天机器人，它是能真正干活的AI助手。一、DeepSeek V4是什么？ 2026年4月24日，DeepSeek发布V4预览版，两个版本： V4-Pro：完整版，Agent能力强，推理性能顶级 V4-Flash：轻量版，速度快，成本低核心能力：百万字上下文：一次能读1M 保存为result.xlsx" 效果：一次生成可运行的代码自动处理异常情况代码质量接近中级工程师水平真实案例：某开发团队用DeepSeek V4写代码，从"半天一个功能"到"1小时一个功能"， 4 代码能力： V4-Pro接近Claude 4 Sonnet 长文本处理： V4（1M）> Claude（200K）成本： V4更低中文优化： V4更好 ▪ 5.3 vs DeepSeek V3 需要更高级功能，升级到Pro版一句话带走： DeepSeek V4不是聊天机器人，是你的AI工作伙伴。
1.5K10编辑于 2026-04-28
来自专栏Maven从入门到企业实战
【DeepSeek实战】驾驭千亿参数：DeepSeek V4 Prompt 工程最佳实践
驾驭千亿参数：DeepSeek V4 Prompt 工程最佳实践摘要: DeepSeek V4 拥有强大的逻辑推理与代码生成能力，但如何"用好"它是一门艺术。结构化提示词框架 (CRISPE) 一个优秀的 Prompt 应包含以下要素：图2：CRISPE 框架六大要素及其在 DeepSeek V4 中的应用要素说明示例 C - Capacity/ 实测数据: 在数学推理任务中，CoT 可使 DeepSeek V4 的准确率从 68% 提升至 91%。图3：普通 Prompt vs CoT Prompt 在复杂逻辑任务中的准确率对比 3. JSON Mode 结构化输出 DeepSeek V4 支持强制输出 JSON 格式，极大简化后端解析逻辑。关注我，获取《DeepSeek V4 企业级应用实战》系列最新文章！ ✍️ 行文仓促，定有不足之处，欢迎各位朋友在评论区批评指正，不胜感激!
15610编辑于 2026-06-02
来自专栏大模型系列
微调实战：DeepSeek V4领域适配完全指南
对于V4这样庞大的MoE模型，微调不仅是提升性能的手段，更是实现商业价值最大化的必经之路。第二章：微调前的准备工作成功的微调始于周密的准备。本章将指导你完成环境、硬件和数据的搭建。自动检测load_in_4bit=True#使用4-bit量化#加载基础模型model,tokenizer=FastLanguageModel.from_pretrained(model_name="deepseek-ai /DeepSeek-V4-Flash",max_seq_length=max_seq_length,dtype=dtype,load_in_4bit=load_in_4bit,)4.3应用LoRA适配器展开代码语言 ,r=16,#LoRA秩target_modules=["q_proj","k_proj","v_proj","o_proj","gate_proj","up_proj","down_proj"],#V4 在昇腾CANN软件栈上直接运行这些框架进行V4微调，仍面临兼容性挑战。可行路径：混合模式：在NVIDIAGPU上完成微调，导出FP16或INT4格式的模型，然后将微调后的模型部署到昇腾平台进行推理。
37210编辑于 2026-05-15
来自专栏苏三说技术
GPT5.5 和 DeepSeek V4，哪个更好？
DeepSeek V4：结构性的成本革命 DeepSeek V4的核心突破在于解决了超长上下文大模型在推理阶段的效率瓶颈。三、开源护城河 vs 商业生态圈 DeepSeek V4：深植开源社区，构建开发者生态完全开源：采用MIT协议，个人和企业均可免费下载权重并商用，显著降低了技术门槛。如果希望完全掌控模型并实现私有化部署，DeepSeek V4是明确的选择。但如果追求极致的性能上限和完备的官方工具链，GPT-5.5依然是难以绕过的标杆。四、总结回到最初的问题：GPT-5.5和DeepSeek V4，哪个更好？数据高度敏感，要求完全合规 ✅ DeepSeek V4系列完全开源，支持私有化部署且适配华为昇腾芯片，可控性高。
69410编辑于 2026-04-28
来自专栏Maven从入门到企业实战
【DeepSeek 实战】打造全能编程助手：DeepSeek V4 Agent 开发与工具调用
打造全能编程助手：DeepSeek V4 Agent 开发与工具调用摘要: Agent（智能体）是大模型应用的高级形态。本文详解如何利用 DeepSeek V4 的 Function Calling 能力，构建能够自主调用外部工具的编程助手。 Bug 位置，生成修复代码，运行单元测试验证，最后提交 Git Commit 价值: 将开发者从重复性工作中解放出来，专注于架构设计与核心逻辑图1：Agent 从代码审查到自动修复的完整流程 DeepSeek V4 强大的 Function Calling 能力使其能够理解工具的功能描述，并在需要时主动调用。定义工具 Schema 首先，我们需要告诉 DeepSeek V4 有哪些工具可用，以及每个工具的参数格式。
3610编辑于 2026-06-03
来自专栏热度文章
别卷了，DeepSeek V4 来交卷了
DeepSeek从V3.1开始也走了这条路，V4当然也是混合架构。所以R2这个代号，大概率就这么退休了。就像OpenAI的o3，也成了最后一代独立推理模型，直接被吞进了GPT-5。这个方向的评测目前还没有特别统一的标准，但各家内部测试和第三方机构的反馈，V4-Pro的Agent表现确实很能打。1.6万亿参数，大了两倍半V4-Pro的总参数量是1.6万亿。在很多人觉得“参数规模不太重要了”的今天，DeepSeek用V4说了一句：大就是有效，大就是聪明，大就是领先。但“大”也有代价。参数涨了，推理成本就压不住。比架构更值得关注的：国产算力V4发布当天，华为云就宣布昇腾超节点完成全栈适配。这背后工程量有多大？DeepSeek需要把大量原本跑在NVIDIAGPU上的CUDA代码，迁移到华为的CANN架构上。 DeepSeek作为国内最强开源力量，正在用V4把国产算力生态拉进真正的实战场景。而且MIT许可证全开源，任何人都能拿去用、拿去改、拿去商用。写在最后V4这次发布，没有去年R1那种颠覆式的震撼。
39231编辑于 2026-04-24
DeepSeek V4 来了，它到底比别人强在哪？
不用技术背景，看懂 DeepSeek V4 创新和差异～同一天，OpenAI 发布了 GPT-5.5。DeepSeek 也发了 V4。 DeepSeek V4 的核心优势在第三个维度：同等效果下，成本砍掉了大半。一个长上下文，卡了行业两年要理解 DeepSeek V4 做了什么，先理解这个问题：为什么 AI 很难"读长文"？ DeepSeek V4 的核心创新：把长文"压一压" DeepSeek V4 的技术团队想到一个办法：先压缩，再处理。想象你要读一篇 1000 页的报告。正常方式：把每一页都完整保留，互相比对。短板：上下文只有 128K，相比 DeepSeek V4 的 100 万差距明显。 2026.04GLM-5.1（智谱）方向：工程级 Agent + 减少幻觉。 MetaLLaMA 4 Scout 方向最激进：10M（1000 万）token 上下文，比 DeepSeek V4 还多 10 倍。用 iRoPE 交错位置编码实现。
13420编辑于 2026-06-02
DeepSeek V4 正式发布：它不是最强的，但它或许是最重要的
日，DeepSeek 正式发布 V4 系列，同步开源。 "DeepSeek V4 不需要在每一项评测上赢，它只需要足够好，然后让价格做剩下的工作。" 评测项 DeepSeek V4-Pro Claude Opus 4.6 V4 表现 LiveCodeBench 代码生成 93.5% 88.8% ✅ 领先 SWE-Bench 软件工程 55.4% 64.3% DeepSeek 自己的内部评测也承认：「Agent Coding 体验优于 Sonnet 4.5，接近 Opus 4.6 非思考模式，但与 Opus 4.6 思考模式仍有差距。」这，才是 DeepSeek V4 最重要的地方。
64910编辑于 2026-04-28
DeepSeek-V4 震撼发布：迈入 1M 百万上下文普惠时代，Agent 与代码能力比肩顶尖闭源
DeepSeek-V4-Pro：性能比肩顶级闭源这是 V4 系列的满血版本，专为复杂任务和强推理场景设计：Agent 能力史诗级跃升：在 Agentic Coding 评测中，V4-Pro 已经登顶当前开源模型榜首据内部评测反馈，其作为 Agentic Coding 模型的使用体验已优于 Sonnet 4.5，交付质量更是逼近 Opus 4.6（非思考模式）。数理与推理霸榜：在数学、STEM、竞赛型代码等硬核测评中，V4-Pro 超越了当前所有已公开评测的开源模型，跻身世界第一梯队。 DeepSeek-V4 此次开创了一种全新的注意力机制：通过在 Token 维度进行深度压缩，并结合创新的 DSA 稀疏注意力（DeepSeek Sparse Attention）机制，V4 在实现了全球领先的长上下文能力的同时集合技术报告 (PDF): DeepSeek_V4.pdf结语从 V2 的 MoE 架构惊艳亮相，到 V3 的全面强化，再到今天 V4 带来的百万上下文与顶级 Agent 能力，DeepSeek 一直在践行其
2.7K90编辑于 2026-04-24
来自专栏运维有术
DeepSeek V4 发布：1.6T 参数、百万上下文，开源模型追平闭源
图 1：DeepSeek V4 核心要点全景2026 年 4 月 24 日，OpenAI 发布 GPT-5.5 后不到 24 小时，DeepSeek V4 预览版上线了。翻完 58 页技术报告和十几篇社区评测，我的判断是：V4 不是一次简单的参数堆叠，而是一次围绕长上下文效率的架构重构。这篇文章，我会从技术架构、评测数据、定价策略三个维度把 V4 拆开来看。最后也会聊聊：它到底算不算王者归来？1. DeepSeek V4 的思路不同。 = "deepseek-v4-flash"国产算力适配V4 在这方面走得比任何国产模型都远。
1.1K40编辑于 2026-04-28
DeepSeek V4模型技术参数与性能分析
中国AI实验室DeepSeek推出了其最新大语言模型DeepSeek V4的两个预览版本，这是对去年V3.2模型及伴随的R1推理模型的备受期待的更新，后者曾席卷AI领域。该公司表示，DeepSeek V4 Flash和V4 Pro均为混合专家（Mixture-of-Experts）模型，每个模型拥有100万token的上下文窗口——足以让大型代码库或文档用于提示词中。 DeepSeek表示，由于架构改进，这两个模型比DeepSeek V3.2更高效、性能更佳，并且在推理基准上几乎“缩小了”与当前领先模型（无论是开放还是闭源）的差距。在编程竞赛基准中，DeepSeek表示两款V4模型的性能“与GPT-5.4相当”。 V4 Flash和V4 Pro都仅支持文本，不像许多闭源同行那样支持理解并生成音频、视频和图像。值得注意的是，DeepSeek V4比当今任何前沿模型都便宜得多。
69910编辑于 2026-04-25
来自专栏Hello工控
把DeepSeek V4接入RealPLC，实现PLC自动编程！
昨天我们介绍了Deepseek V4 Pro预览版正式上线！它的PLC编程能力到底如何？那对于我们RealPLC而言，必须实时更新下，把这个模型都接入进来。 01 申请DeepSeek API 我们首先到DeepSeek开发者平台，获取到API KEY。这是最重要的一步。 Step1：登录DeepSeek官网。在设置界面里： AI提供方选择DeepSeek，模型任选一个，DeepSeek的API密钥填写刚刚保存备用的KEY。BaseURL填写：确定好保存更改即可。然后我们可以用专家场景里面的PID应用来测试下DeepSeek V4 Pro生成西门子PLC程序效果：我们进入服务器后台可以看到，Job ID已经生成了，说明DeepSeek成功响应：再回到我们的web
67010编辑于 2026-04-28
来自专栏大模型系列
DeepSeek-V4 多模态模型深度解析：开启原生多模态与百万上下文新纪元（2026年官方发布版）——V4-Pro 与 V4-Flash 双擎驱动MoE 架构
我们将从产品定位、核心技术架构、多模态能力细节、性能评测、部署实践到未来展望，层层递进，力求为您呈现一个完整、准确且深刻的V4画像。第四章：性能评测与横向对比——开源领域的巅峰之作DeepSeek-V4在多个维度的评测中均展现出顶尖实力。 4.2长上下文专项评测在LongBench和InfiniteBench等长上下文评测套件中，V4系列表现尤为突出。具身智能（EmbodiedAI）：将V4作为大脑，驱动机器人在物理世界中进行探索和学习。结语DeepSeek-V4不仅仅是一个技术产品，它更是一种宣言，一种信念。在这个由V4开启的新纪元里，无数的创新火花将被点燃，无数的应用场景将被重塑。作为开发者，我们正站在一个激动人心的时代入口，而DeepSeek-V4，无疑是那把最锋利的钥匙。
12K50编辑于 2026-05-03
来自专栏石云升
DeepSeek 新版本（V4?），内附升级方法
DeepSeek 更新了V4？下午5点左右，DeepSeek更新了一个新模型，据说是个小模型，整理能力我个人觉得比3.2是强一点的，但还比不上谷歌的Gemini 3，所以不确定是不是V4。是不是很神奇，其实离DeepSeek R1发布才1年多，恍如隔世。
1.4K10编辑于 2026-03-17
来自专栏大模型系列
万亿参数震撼发布：DeepSeek V4 MoE架构深度解析
一、前言：超越“更大即更好”的新范式2026年4月24日，深度求索（DeepSeek）正式开源发布DeepSeek-V4系列预览版，一举引爆全球AI圈。这种精细化的工程调优，使得V4能够在保持极高稀疏度的同时，依然获得稳定的训练效果和卓越的推理性能。五、性能基准与实测对比DeepSeek官方及社区的多项基准测试表明，V4系列模型在多个维度上均达到了国际领先水平。这些数据充分证明了V4“高效超大规模”理念的成功。它不仅在能力上不输于顶级闭源模型，在成本和效率上更是实现了降维打击。六、应用场景与开发者生态V4的发布，为开发者和企业打开了全新的应用可能性。 6.2开发者支持DeepSeek为V4提供了全面的开发者工具链：开源权重：在HuggingFace上免费提供，MIT协议允许商用。
65530编辑于 2026-05-14
来自专栏后端架构师
把 API 从 GPT 切到 DeepSeek V4，费用降了 4.3 倍，省了钱，也踩了这些坑
他问我：DeepSeek V4 刚出来，值得换吗？ Benchmark 和生产表现的差距是 LLM 行业的老问题： Benchmark 被优化过：模型对公开评测题的"记忆"会影响分数，不代表真实泛化能力。独立验证不足：V4 刚发布，目前结果大多来自 DeepSeek 自己或少数早期试用者，等独立评测跑完会更有参考价值。 Q：DeepSeek V4 能做多模态任务吗？ A：V4 原生集成了文本、图像和视频理解能力，且是在预训练阶段融合的，不是后期拼接模块。：DeepSeek V4 发布报道 BuildFastWithAI：V4-Pro 评测 DeepSeek V4 的意义不是"又一个打败 GPT 的模型"——这种标题已经失效了。
60910编辑于 2026-05-08
来自专栏Java面试教程
DeepSeek-V4，终于发布，很强！
刚刚，DeepSeek 官方公众号发文：DeepSeek-V4 预览版：迈入百万上下文普惠时代。全新 DeepSeek-V4 的预览版本正式上线。 V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。现在登录官网什么，就已经是 V4了。根据官方的报道，DeepSeek-V4-Pro：性能比肩顶级闭源模型，什么叫做比肩顶级闭源模型。大家看看下面的对比图。内部评测显示，其使用体验优于Sonnet 4.5，交付质量接近Opus 4.6 3、在数学、STEM（科学、技术、工程、数学）及竞赛级代码等推理测评中，均超越所有已公开评测的开源模型，达到世界顶级水平。 4、V4-Pro版本的世界知识储备，已大幅领先其他开源模型，仅次于顶尖闭源模型Gemini-Pro-3.1 5、深度适配华为昇腾算力：V4将运行在华为最新的昇腾（Ascend）芯片上。
94930编辑于 2026-04-27

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

DeepSeek V4模型原理

DeepSeek V4 Flash 量化版火了

DeepSeek V4 真要来了！

DeepSeek V4是什么？能做什么？

【DeepSeek实战】驾驭千亿参数：DeepSeek V4 Prompt 工程最佳实践

微调实战：DeepSeek V4领域适配完全指南

GPT5.5 和 DeepSeek V4，哪个更好？

【DeepSeek 实战】打造全能编程助手：DeepSeek V4 Agent 开发与工具调用

别卷了，DeepSeek V4 来交卷了

DeepSeek V4 来了，它到底比别人强在哪？

DeepSeek V4 正式发布：它不是最强的，但它或许是最重要的

DeepSeek-V4 震撼发布：迈入 1M 百万上下文普惠时代，Agent 与代码能力比肩顶尖闭源

DeepSeek V4 发布：1.6T 参数、百万上下文，开源模型追平闭源

DeepSeek V4模型技术参数与性能分析

把DeepSeek V4接入RealPLC，实现PLC自动编程！

DeepSeek-V4 多模态模型深度解析：开启原生多模态与百万上下文新纪元（2026年官方发布版）——V4-Pro 与 V4-Flash 双擎驱动MoE 架构

DeepSeek 新版本（V4?），内附升级方法

万亿参数震撼发布：DeepSeek V4 MoE架构深度解析

把 API 从 GPT 切到 DeepSeek V4，费用降了 4.3 倍，省了钱，也踩了这些坑

DeepSeek-V4，终于发布，很强！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐